智能论文笔记

One is All: Bridging the Gap Between Neural Radiance Fields Architectures with Progressive Volume Distillation

Shuangkang Fang , Weixin Xu , Heng Wang , Yi Yang , Yufeng Wang , Shuchang Zhou

分类：计算机视觉

2022-11-29

Neural Radiance Fields (NeRF) methods have proved effective as compact, high-quality and versatile representations for 3D scenes, and enable downstream tasks such as editing, retrieval, navigation, etc. Various neural architectures are vying for the core structure of NeRF, including the plain Multi-Layer Perceptron (MLP), sparse tensors, low-rank tensors, hashtables and their compositions. Each of these representations has its particular set of trade-offs. For example, the hashtable-based representations admit faster training and rendering but their lack of clear geometric meaning hampers downstream tasks like spatial-relation-aware editing. In this paper, we propose Progressive Volume Distillation (PVD), a systematic distillation method that allows any-to-any conversions between different architectures, including MLP, sparse or low-rank tensors, hashtables and their compositions. PVD consequently empowers downstream applications to optimally adapt the neural representations for the task at hand in a post hoc fashion. The conversions are fast, as distillation is progressively performed on different levels of volume representations, from shallower to deeper. We also employ special treatment of density to deal with its specific numerical instability problem. Empirical evidence is presented to validate our method on the NeRF-Synthetic, LLFF and TanksAndTemples datasets. For example, with PVD, an MLP-based NeRF model can be distilled from a hashtable-based Instant-NGP model at a 10X~20X faster speed than being trained the original NeRF from scratch, while achieving a superior level of synthesis quality. Code is available at https://github.com/megvii-research/AAAI2023-PVD.

translated by 谷歌翻译

SVIP: Sequence VerIfication for Procedures in Videos

Yicheng Qian , Weixin Luo , Dongze Lian , Xu Tang , Peilin Zhao , Shenghua Gao

分类：计算机视觉

2021-12-13

在本文中，我们提出了一种新的序列验证任务，该任务旨在区分从具有阶梯级变换的负面的正视频对，但仍然进行相同的任务。这种具有挑战性的任务驻留在没有先前操作检测或需要事件级别甚至帧级注释的分段的开放式设置。为此，我们仔细重新组成了具有步骤过程任务结构的两个公开的动作相关的数据集。为了充分调查任何方法的有效性，我们收集了统计化学实验中各种步进变换的脚本视频数据集。此外，引入了一种新的评估度量加权距离比以确保评估期间不同的步进级变换等效。最后，基于具有新序列对准损耗的变压器的简单但有效的基线被引入到更好地表征步骤之间的长期依赖性，这优于其他动作识别方法。将发布代码和数据。

translated by 谷歌翻译

Arch-Net: Model Distillation for Architecture Agnostic Model Deployment

Weixin Xu , Zipeng Feng , Shuangkang Fang , Song Yuan , Yi Yang , Shuchang Zhou

分类：机器学习 | 计算机视觉

2021-11-01

深度神经网络的计算能力的巨大要求是他们真实世界应用的主要障碍。许多最近的应用特定集成电路（ASIC）芯片特征专用于神经网络加速的硬件支持。然而，由于ASICS多年来发展，他们不可避免地通过神经结构研究的最新发展出现。例如，变换器网络在许多流行芯片上没有本机支持，因此难以部署。在本文中，我们提出了一系列神经网络的拱门，这些网络唯一由距离Asics的大多数架构有效支持的运营商。当产生弓形网时，通过无标记的块块模型蒸馏以逐步的方式消除较少的普通网络结构，如层归一化和嵌入层，同时同时执行Sub-八比特量化以最大化性能。机器翻译和图像分类任务的经验结果确认我们可以将最新的发发的神经架构转换为快速运行和准确的拱网，准备部署多个大规模生产的ASIC芯片。代码将在https://github.com/megvii-research/arch-et栏中提供。

translated by 谷歌翻译

Multiple Object Tracking Challenge Technical Report for Team MT_IoT

Feng Yan , Zhiheng Li , Weixin Luo , Zequn jie , Fan Liang , Xiaolin Wei , Lin Ma

分类：计算机视觉

2022-12-07

This is a brief technical report of our proposed method for Multiple-Object Tracking (MOT) Challenge in Complex Environments. In this paper, we treat the MOT task as a two-stage task including human detection and trajectory matching. Specifically, we designed an improved human detector and associated most of detection to guarantee the integrity of the motion trajectory. We also propose a location-wise matching matrix to obtain more accurate trace matching. Without any model merging, our method achieves 66.672 HOTA and 93.971 MOTA on the DanceTrack challenge dataset.

translated by 谷歌翻译

Multi-Agent Sequential Decision-Making via Communication

Ziluo Ding , Kefan Su , Weixin Hong , Liwen Zhu , Tiejun Huang , Zongqing Lu

分类：机器学习

2022-09-26

沟通可以帮助代理商获得有关他人的信息，以便可以学习更好的协调行为。一些现有的工作会与其他人传达预测的未来轨迹，希望能为其他人做些更好的协调能力提供线索。但是，当对代理人同步处理时，有时会发生循环依赖性，因此很难协调决策。在本文中，我们提出了一种新颖的交流方案，顺序通信（SEQCOMM）。 Seqcomm不同步（高级代理在低级阶段之前做出决定），并有两个通信阶段。在谈判阶段，代理通过传达观测的隐藏状态并比较意图的价值来确定决策的优先级，这是通过对环境动态进行建模来获得的。在发射阶段，高级代理商领导着做出决策并与低级代理商进行交流。从理论上讲，我们证明Seqcomm学到的政策可以单调地改善并融合。从经验上讲，我们表明SEQCOMM在各种多机构合作任务中都优于现有方法。

translated by 谷歌翻译

A Circular Window-based Cascade Transformer for Online Action Detection

Shuqiang Cao , Weixin Luo , Bairui Wang , Wei Zhang , Lin Ma

分类：计算机视觉

2022-08-30

在线行动检测旨在基于长期的历史观察结果对当前框架进行准确的行动预测。同时，它需要对在线流视频进行实时推断。在本文中，我们主张一个新颖有效的在线行动检测原则。它仅在一个窗口中更新最新，最古老的历史表示，但重复了已经计算的中间图表。基于这一原则，我们引入了一个基于窗口的级联变压器，带有圆形历史队列，在每个窗口上都进行了多阶段的注意力和级联精炼。我们还探讨了在线操作检测与其脱机行动分段作为辅助任务之间的关联。我们发现，这种额外的监督有助于判别历史的聚类，并充当功能增强，以更好地培训分类器和级联改善。我们提出的方法在三个具有挑战性的数据集Thumos'14，TVSeries和HDD上实现了最新的表演。接受后将可用。

translated by 谷歌翻译

HTML版本

PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View

Hongyu Zhou , Zheng Ge , Weixin Mao , Zeming Li

分类：计算机视觉

2022-08-19

目前，在鸟眼中检测3D对象（BEV）优于其他3D检测器，用于自动驾驶和机器人技术。但是，将图像特征转换为BEV需要特别操作员进行特征采样。这些操作员在许多边缘设备上不受支持，在部署探测器时会带来额外的障碍。为了解决此问题，我们重新审视BEV表示的生成，并在透视图BEV中提出检测对象 - 一种不需要功能采样的新的BEV表示。我们证明，BEV功能同样可以享受BEV范式的好处。此外，视角BEV通过解决特征采样引起的问题来改善检测性能。我们建议基于此发现的透视bev空间中的高性能对象检测提出PERSDET。在实施简单且有效的结构时，SPEDET优于Nuscenes基准上的现有最新单眼方法，在使用Resnet-50作为骨架时，达到34.6％的MAP和40.8％的NDS。

translated by 谷歌翻译

A Survey of Learning on Small Data

Xiaofeng Cao , Weixin Bu , Shengjun Huang , Yingpeng Tang , Yaming Guo , Yi Chang , Ivor W. Tsang

分类：机器学习

2022-07-29

大数据学习为人工智能（AI）带来了成功，但是注释和培训成本很昂贵。将来，对小数据的学习是AI的最终目的之一，它要求机器识别依靠小数据作为人类的目标和场景。一系列的机器学习模型正在进行这种方式，例如积极学习，几乎没有学习，深度聚类。但是，其概括性能几乎没有理论保证。此外，它们的大多数设置都是被动的，也就是说，标签分布由一个指定的采样方案明确控制。这项调查遵循PAC（可能是近似正确）框架下的不可知论活动采样，以分析使用有监督和无监督的时尚对小数据学习的概括误差和标签复杂性。通过这些理论分析，我们从两个几何学角度对小数据学习模型进行了分类：欧几里得和非欧几里得（双曲线）平均表示，在此还提供了优化解决方案和讨论。稍后，然后总结了一些可能从小型数据学习中受益的潜在学习方案，还分析了它们的潜在学习方案。最后，还调查了一些具有挑战性的应用程序，例如计算机视觉，自然语言处理可能会受益于小型数据学习。

translated by 谷歌翻译

Dense Teacher: Dense Pseudo-Labels for Semi-supervised Object Detection

Hongyu Zhou , Zheng Ge , Songtao Liu , Weixin Mao , Zeming Li , Haiyan Yu , Jian Sun

分类：计算机视觉

2022-07-06

迄今为止，最强大的半监督对象检测器（SS-OD）基于伪盒，该盒子需要一系列带有微调超参数的后处理。在这项工作中，我们建议用稀疏的伪盒子以伪造的伪标签形式取代稀疏的伪盒。与伪盒相比，我们的密集伪标签（DPL）不涉及任何后处理方法，因此保留了更丰富的信息。我们还引入了一种区域选择技术，以突出关键信息，同时抑制密集标签所携带的噪声。我们将利用DPL作为密集老师的拟议的SS-OD算法命名。在可可和VOC上，密集的老师在各种环境下与基于伪盒的方法相比表现出卓越的表现。

translated by 谷歌翻译

GSCLIP : A Framework for Explaining Distribution Shifts in Natural Language

Zhiying Zhu , Weixin Liang , James Zou

分类：自然语言处理 | 计算机视觉 | 机器学习

2022-06-30

帮助最终用户理解抽象分发的变化可以极大地促进AI部署。在此激励的情况下，我们提出了一项新颖的任务，数据集说明。给定两个图像数据集，数据集的说明旨在自然用自然语言指出其数据集级别的分布。当前用于监视分配变化的技术提供了不足的信息来了解数据集，以提高数据质量。因此，我们介绍了GSCLIP，这是一个无培训的框架来解决数据集说明任务。在GSCLIP中，我们将选择器作为第一种定量评估方法，以识别适当总结数据集偏移的解释。此外，我们利用该选择器来证明基于语言模型生成的发电机的优势。对自然数据转移的系统评估验证了GSCLIP（混合发电机组的组合系统和有效的选择器的组合系统不仅易于使用，而且对于数据集的说明也很强大。

translated by 谷歌翻译